变异推断是一种近似顽固性后验分布的技术,以量化机器学习的不确定性。尽管通常选择单峰高斯分布作为参数分布,但几乎不能近似多模式。在本文中,我们将高斯混合物分布作为参数分布。高斯混合物的变异推断的主要难度是如何近似高斯混合物的熵。我们将高斯混合物的熵近似为单峰高斯的熵之和,可以在分析上计算。此外,我们理论上分析了真熵与近似熵之间的近似误差,以揭示我们的近似何时效果很好。具体而言,近似误差由平均值与高斯混合物方差之和之间的距离之比控制。此外,当比率变为无穷大时,它会收敛到零。由于维度的诅咒,这种情况似乎更有可能在更高维度的参数空间中发生。因此,我们的结果保证了我们的近似效果很好,例如,在具有大量权重的神经网络中。
translated by 谷歌翻译
Image captioning models require the high-level generalization ability to describe the contents of various images in words. Most existing approaches treat the image-caption pairs equally in their training without considering the differences in their learning difficulties. Several image captioning approaches introduce curriculum learning methods that present training data with increasing levels of difficulty. However, their difficulty measurements are either based on domain-specific features or prior model training. In this paper, we propose a simple yet efficient difficulty measurement for image captioning using cross-modal similarity calculated by a pretrained vision-language model. Experiments on the COCO and Flickr30k datasets show that our proposed approach achieves superior performance and competitive convergence speed to baselines without requiring heuristics or incurring additional training costs. Moreover, the higher model performance on difficult examples and unseen data also demonstrates the generalization ability.
translated by 谷歌翻译
Removing reverb from reverberant music is a necessary technique to clean up audio for downstream music manipulations. Reverberation of music contains two categories, natural reverb, and artificial reverb. Artificial reverb has a wider diversity than natural reverb due to its various parameter setups and reverberation types. However, recent supervised dereverberation methods may fail because they rely on sufficiently diverse and numerous pairs of reverberant observations and retrieved data for training in order to be generalizable to unseen observations during inference. To resolve these problems, we propose an unsupervised method that can remove a general kind of artificial reverb for music without requiring pairs of data for training. The proposed method is based on diffusion models, where it initializes the unknown reverberation operator with a conventional signal processing technique and simultaneously refines the estimate with the help of diffusion models. We show through objective and perceptual evaluations that our method outperforms the current leading vocal dereverberation benchmarks.
translated by 谷歌翻译
马尔可夫链蒙特卡洛(MCMC),例如langevin Dynamics,有效地近似顽固的分布。但是,由于昂贵的数据采样迭代和缓慢的收敛性,它的用法在深层可变模型的背景下受到限制。本文提出了摊销的langevin Dynamics(ALD),其中数据划分的MCMC迭代完全被编码器的更新替换为将观测值映射到潜在变量中。这种摊销可实现有效的后验采样,而无需数据迭代。尽管具有效率,但我们证明ALD是MCMC算法有效的,其马尔可夫链在轻度假设下将目标后部作为固定分布。基于ALD,我们还提出了一个名为Langevin AutoCodeer(LAE)的新的深层变量模型。有趣的是,可以通过稍微修改传统自动编码器来实现LAE。使用多个合成数据集,我们首先验证ALD可以从目标后代正确获取样品。我们还在图像生成任务上评估了LAE,并证明我们的LAE可以根据变异推断(例如变异自动编码器)和其他基于MCMC的方法在测试可能性方面胜过现有的方法。
translated by 谷歌翻译
使用移动操纵器来整理家庭环境,在机器人技术中提出了各种挑战,例如适应大型现实世界的环境变化,以及在人类面前的安全和强大的部署。2021年9月举行的全球竞赛,对真正的家庭环境中的整理任务进行了基准测试,重要的是,对全面的系统性能进行了测试。对于此挑战,我们开发了整个家庭服务机器人系统,该机器人系统利用数据驱动的方法来适应众多的方法在执行过程中发生的边缘案例,而不是经典的手动预编程解决方案。在本文中,我们描述了提出的机器人系统的核心成分,包括视觉识别,对象操纵和运动计划。我们的机器人系统赢得了二等奖,验证了数据驱动的机器人系统在家庭环境中移动操作的有效性和潜力。
translated by 谷歌翻译
人的大脑在其几种功能中分析了口语中的双重发音结构,即双重关节分析(DAA)。单词连接到形成句子和单词由音素或音节组成的层次结构称为双关节结构。尽管已经获得了一些见解,但尚未建立在人脑中DAA的何处以及如何进行DAA。此外,基于概率生成模型(PGM)的现有计算模型不融合神经科学的发现,并且以前尚未讨论过其与大脑的一致性。这项研究将这些现有的计算模型与神经科学的发现进行了比较,映射和整合,以弥合这一差距,并且发现与未来的应用和进一步的研究有关。这项研究提出了一个DAA假设的PGM,该假设可以根据几种神经科学调查的结果在大脑中实现。该研究涉及(i)研究和组织与口语处理有关的解剖结构,以及(ii)与感兴趣区域的解剖结构和功能相匹配的PGM。因此,这项研究提供了新的见解,这些见解将是基础,以进一步探索大脑中的DAA。
translated by 谷歌翻译
本文提出了一个新的语音转换(VC)任务,从人类语音到类似狗的语音,同时保留语言信息,作为人类到非人类生物语音转换(H2NH-VC)任务的一个例子。尽管大多数VC研究都涉及人类VC,但H2NH-VC旨在将人类的言论转变为非人类生物式的言语。非平行VC允许我们开发H2NH-VC,因为我们无法收集非人类生物说人类语言的并行数据集。在这项研究中,我们建议将狗用作非人类生物目标域的一个例子,并定义“像狗一样说话”任务。为了阐明“像狗一样说话”任务的可能性和特征,我们使用现有的代表性非平行VC方法进行了比较实验,以声学特征(Mel-Cepstral系数和MEL-SPECTROGINS),网络体系结构(五个不同的kernel- kernel--尺寸设置)和训练标准(基于差异自动编码器(VAE)基于对抗性网络)。最后,使用平均意见分数评估了转换后的声音:狗的声音,声音质量和可理解性以及字符错误率(CER)。该实验表明,梅尔光谱图的使用改善了转换后的语音的类似狗,而保留语言信息则具有挑战性。强调了H2NH-VC当前VC方法的挑战和局限性。
translated by 谷歌翻译
基于有效干预措施的早期疾病检测和预防方法正在引起人们的注意。机器学习技术通过捕获多元数据中的个体差异来实现精确的疾病预测。精确医学的进展表明,在个人层面的健康数据中存在实质性异质性,并且复杂的健康因素与慢性疾病的发展有关。但是,由于多种生物标志物之间的复杂关系,确定跨疾病发作过程中的个体生理状态变化仍然是一个挑战。在这里,我们介绍了健康疾病阶段图(HDPD),它通过可视化在疾病进展过程早期波动的多种生物标志物的边界值来代表个人健康状态。在HDPD中,未来的发作预测是通过扰动多个生物标志物值的情况来表示的,同时考虑变量之间的依赖性。我们从3,238个个体的纵向健康检查队列中构建了11种非传染性疾病(NCD)的HDPD,其中包括3,215个测量项目和遗传数据。 HDPD中非发病区域的生物标志物值的改善显着阻止了11个NCD中的7个未来的疾病发作。我们的结果表明,HDPD可以在发作过程中代表单个生理状态,并用作预防疾病的干预目标。
translated by 谷歌翻译
我们提出了一种使用变异隐式神经表示(INR)的动作条件人类运动产生方法。变分形式主义可以使INR的动作条件分布,从中可以轻松地采样表示形式以产生新的人类运动序列。我们的方法通过构造提供可变的长度序列生成,因为INR的一部分已针对随时间嵌入的整个任意长度进行了优化。相反,以前的作品报告了建模可变长度序列的困难。我们证实,使用变压器解码器的方法优于人类Act12,NTU-RGBD和UESTC数据集的所有相关方法,从现实主义和生成动作的多样性方面。令人惊讶的是,即使我们使用MLP解码器的方法也始终优于最先进的基于变压器的自动编码器。特别是,我们表明,在现实主义和多样性方面,我们方法生成的可变长度运动比最先进方法产生的固定长度运动更好。 https://github.com/pacerv/implicitmotion上的代码。
translated by 谷歌翻译
工业连接器插入任务需要亚毫米定位并掌握插头的姿势补偿。因此,对插头和插座之间的相对姿势的高度准确估计对于完成任务至关重要。世界模型是视觉运动控制的有前途的技术,因为它们获得了适当的状态表示,以共同优化特征提取和潜在动力学模型。最近的研究表明,Newtonianvae是一种世界模型的一种类型,可获得等同于从图像到物理坐标的映射的潜在空间。在牛顿维尔的潜在空间中可以实现比例控制。但是,在物理环境中应用牛顿台上的牛顿工业任务是一个开放的问题。此外,现有的框架不考虑在获得的潜在空间中的掌握姿势补偿。在这项工作中,我们提出了对触觉敏感的Newtonianvae,并将其应用于物理环境中带有姿势变化的USB连接器插入。我们采用了凝胶型触觉传感器,并估计了插头的掌握姿势补偿的插入位置。我们的方法以端到端的方式训练潜在空间,不需要其他工程和注释。在获得的潜在空间中可以使用简单的比例控制。此外,我们证明了原始的牛顿病在某些情况下失败了,并证明了域知识诱导可以提高模型的准确性。可以使用机器人规范和掌握姿势误差测量轻松获得此域知识。我们证明了我们提出的方法在物理环境中的USB连接器插入任务中实现了100 \%的成功率和0.3 mm的定位精度。它优于SOTA CNN的两阶段目标姿势回归,并使用坐标转换掌握了姿势补偿。
translated by 谷歌翻译